Incorporação de representação vetorial distribuída de palavras e parágrafos na classificação de SMS SPAM

نویسندگان

  • Raul Freire Aguiar
  • Ronaldo Cristiano Prati
چکیده

Resumo—A classificação automática de SMS spam é um problema desafiador, pois ao contrário de outros documentos (como e-mails, por exemplo), esses textos são extremamente curtos, com no máximo 140 caracteres. Além disso, eles normalmente são escritos utilizando gírias, abreviaturas e símbolos como emoticons. Técnicas de pré-processamento tem sido aplicadas para contornar esse problema, como o uso de dicionários de gírias e desambiguação de contexto. Entretanto, os benefícios advindos de técnicas baseadas em dicionário são limitados, uma vez que apenas termos dicionarizados são pré-processados. Neste trabalho investigamos o uso da combinação de técnicas tradicionais com informação advinda de redes neurais recentemente propostas, que criam uma representação vetorial distribuídas de palavras e parágrafos. Essas técnicas são capazes de capturar relações semânticas não triviais, e que podem ser usadas para melhorar a classificação automática de SPAMS. Resultados experimentais mostram que a técnica é bastante competitiva com o uso de dicionários, e que podem agregar informações adicionais relevantes para a classificação de SMS spam.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Normalização Textual e Indexação Semântica Aplicadas na Filtragem de SMS Spam

Resumo—Nos últimos anos, a popularização dos celulares e smartphones impulsionou o uso de SMS como forma alternativa e barata de comunicação. O crescimento de adeptos ao serviço aliado a alta confiança que os usuários possuem nesses tipos de mensagens, vêm atraindo a atenção de pessoas e empresas mal intencionadas, conhecidas como spammers. O spam nesse contexto representa um problema para os m...

متن کامل

On a Mechanical Representation of Electric, Magnetic and Galvanic Forces, by William Thomson: a commented reading

Apresentamos e comentamos o artigo homônimo de William Thomson, originalmente publicado em 1847, no qual o autor explora a analogia entre os estados de deformação em um sólido elástico e as configurações das linhas de força de Faraday. Nele Thomson introduz pela primeira vez o potencial vetorial magnético, associando-o à deformação rotacional de um sólido. Apresentamos também um apanhado histór...

متن کامل

OntoSAIA: Um Ambiente Baseado em Ontologias para Recuperação e Anotação Semi-Automática de Imagens

This article proposes the use of image content, keywords and ontologies to improve the image annotation and retrieval processes through the enhancement of the user’s knowledge of an image database. It proposes an architecture of a flexible system capable of dealing with multiple ontologies and multiple image content descriptors to help these tasks. The validation of the idea is being done throu...

متن کامل

Classificação Contextual de Imagens utilizando Campos Aleatórios Markovianos e Teoria dos Jogos

A classificação de imagens é uma tarefa de fundamental importância em diversas aplicações nas áreas de processamento de imagens, reconhecimento de padrões e visão computacional, dentre as quais é possível citar: sensoriamento remoto, auxílio a diagnóstico de doenças a partir da análise de imagens médicas, detecção de objetos, entre outras. Basicamente, a proposta deste trabalho consiste na clas...

متن کامل

Reconhecimento de Palavras Manuscritas usando Modelos de Markov

This paper presents a handwriting recognition system that deals with unconstrained handwriting and large vocabularies. The system is based on a segmentation–recognition paradigm where words are first loosely segmented into characters and the final segmentation is obtained during the recognition process, which is driven by a lexicon. Characters are modeled by multiple hidden Markov models (HMMs)...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2015